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摘要 :【 目 的 ] 大 热 尖 这 蝗 Epacromius coerulipes (Ivanov) 是 广泛 分 布 的 草原 蝗虫 之 一 ,但 其 基因 资源 缺乏 。 为 了 获 
得 大 热 尖 翅 蝗 的 基因 数据 ,对 其 进行 了 转录 组 测序 和 分 析 。[ 方 法 ] 利 用 Humina 公司 paired-end 转录 组 的 测序 技 
术 进 行 从 头 组 装 。[【 结果 】 总 计 获 得 了 63 033 条 unigenes, 平 均 长 度 为 772 bp,N50 为 1 589 bp。 通 过 BLAST 搜索 ， 
确定 有 25 132 条 (39.87% ) unigenes j NCBI 数据 库 已 知 的 蛋白 质 相 匹配 ,其 中 有 24 841,16 490,11 558 和 8 013 条 
unigenes 成 功 注释 到 Nr, Swiss-Prot, GO 和 COG 数据 库 中 。KEGG 数据 库 中 ,7 218 条 unigenes 形成 218 条 代谢 或 信 
息 通路 。 其 中 ,189 条 unigenes 参与 外 源 性 物质 或 药物 的 代谢 通路 。 进 一 步 分 析 显 示 ,213 条 unigenes 被 确认 为 可 能 
参与 外 源 性 物质 的 解毒 作用 ,29 条 unigenes 被 确定 为 编码 杀 虫 剂 的 目标 蛋白 。 此 外 ,检测 到 5 696 条 简单 重复 序列 。 
【结论 ] 该 转录 组 测序 分 析 将 为 进一步 研究 大 垫 尖 翅 蝗 的 基因 功能 分 析 及 杀 虫 剂 的 抗 药性 机 制 分 析 黄 定 分 子 基 础 。 
关键 词 : KARA, 转录 组 ; 基因 注释 ; GO 数据 库 ; COG 数据 库 ; KEGG 数据 库 ; 简单 重复 序列 
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Abstract: [ Aim] Epacromius coerulipes ( Ivanov) is one of the most widely distributed grassland locusts. 
However, there is a lack of genomic resources. In order to obtain genetic data of E. coerulipes , this study 
conducted the transcriptome sequencing and analysis. [ Methods] De novo assembly of the transcriptome 
was conducted using Illumina paired-end sequencing technology. [Results] In total, 63 033 unigenes 
with a mean length of 772 bp and an N50 length of 1 589 bp were obtained. Of these unigenes, 25 132 
(39.8796) unigenes were matched with the known proteins in the National Center for Biotechnology 
Information ( NCBI) database, as determined by BLAST search, with 24 841, 16 490, 11 558 and 8 013 
unigenes assigned to Nr database, Swiss-Prot, Gene Ontology ( GO) and Clusters of Orthologous Groups 
(COG), respectively. In KEGG database, a total of 7 218 unigenes were assigned to 218 known 
pathways. Among these, 189 unigenes were involved in metabolic pathways of xenobiotics or drugs. In- 
depth analysis of the data showed that 213 unigenes were identified as potentially involved in the 
detoxification of xenobiotics, and 29 unigenes were identified as encoding insecticide target proteins. In 
addition, 5 696 simple sequence repeats ( SSRs) were detected. [ Conclusion] This study lays the 
foundation for further research on gene function analysis and molecular resistance mechanisms to 
insecticides in E. coerulipes. 

Key words: Epacromius coerulipes; transcriptome; gene annotation; Gene Ontology (GO); Clusters of 
Orthologous Groups ( COG); Kyoto Encyclopedia of Genes and Genomes ( KEGG); simple sequence 
repeat ( SSR) 
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KERHA Epacromius coerulipes (Ivanov ) 隶属 
FEH HAPEE Eh, 是 一 种 广泛 分 布 于 中 国 
草原 和 农 牧 交错 地 带 的 蝗虫 之 一 。 大 垫 尖 翅 蝗 寄主 
广泛 ,除了 危害 草原 牧草 ,还 可 以 危害 禾 本 科 作 物 及 
KE. B t S AEA CHIP oCSR, 2003; 田 方 文 
等 , 2010; 徐 亚 勋 等 , 2013 ) ,对 农 牧 业 生产 造成 了 
一 定 的 经 济 损失 。 

目前 对 蝗虫 的 研究 主要 集中 于 产 卵 习性 、 空 间 
分 布 、 食 物 选 择 .生长 发 育 、 种 间 竞 争 .遗传 多 样 性 、 
经 济 阀 值 及 防治 等 方面 ( 徐 亚 勋 等 , 2013 ) 。 但 是 ， 
关于 蝗虫 基因 方面 的 研究 相对 较 少 。Badisco 等 
(2011a) 首 次 对 沙漠 蝗 Schistocerca gregaria HY HP HX 
神经 系统 进行 了 EST 研究 , 共 得 到 中 枢 神 经 系统 
34 672 条 原始 EST 序列 ,并 装配 成 了 12 709 条 转录 
本 序列 ,其 中 约 有 1/3 条 序列 已 被 注释 ,该 研究 填补 
了 直 却 目 昆 虫 转 录 组 数据 。 同 时 Badisco 等 
(2011b) 又 依据 沙漠 蝗 神 经 系统 的 EST 数据 库 设 计 
了 守 核 昔 酸 微 阵 列 , 对 独居 型 和 群居 型 沙漠 蝗 的 中 
枢 神 经 系统 基因 进行 了 比较 ,共识 别 了 214 个 差异 
表达 基因 。 随 着 下 一 代 高 通 量 测序 技术 的 发 展 , 关 
于 昆虫 基因 组 转录 组 的 研究 得 到 了 极 大 地 提高 ,高 
通 量 测序 的 方法 也 引入 了 蝗虫 的 转录 组 研究 。 
Jiang 等 (2012) 首 次 对 没有 提供 参考 基因 组 的 飞 蝗 
Locusta migratoria 进行 了 从 头 组 装 转录 组 的 逆转 录 
因子 分 析 ,在 飞 蝗 转录 组 中 共识 别 了 105 个 逆转 录 
因子 (retroelements) ,这 有 助 于 全 面 了 解 飞 蝗 转录 组 
中 反 转 录 子 的 图 谱 , 更 重要 的 是 ,研究 结果 揭示 非 
LTR 反 转 录 子 在 飞 蝗 转录 组 中 是 极其 丰富 和 多 样 
HJ, Chen 等 (2010) 对 飞 蝗 的 转录 组 进行 了 从 头 组 
装 ,该 研究 可 以 为 不 完全 变态 昆虫 的 遗传 资源 以 及 
对 昆虫 变形 起 源 提供 更 深 的 理解 。 而 且 , 若 能 识别 
出 与 蝗虫 发 育 和 相 变 相关 的 基因 和 途径 ,对 防治 煌 
灾 有 极 大 的 帮助 。 吕 红 娟 (2012) 对 中 华 称 蝗 Oxya 
chinensis 成 虫 和 在 虫 进 行 转 录 组 分 析 , 同 时 比较 了 
二 者 的 差异 基因 。 杨 婧 (2013 ) t dz T Ri i f d 
Actractomorpha sinensis 3 种 虫 态 的 转录 组 ,并 进行 线 
粒 体 转录 组 作 图 研究 ,丰富 了 直 翅 目 昆虫 转 录 组 数 
据 库 。 同 时 ,转录 组 的 高 通 量 测序 技术 也 应 用 于 昆 
虫 抗 性 研究 中 , 极 大 地 提高 了 基因 注释 的 效率 和 数 
量 ( Ansorge et al., 2009) ,促进 了 昆虫 抗 药性 的 研究 
进程 。 目 前 这 种 技术 已 被 应 用 于 多 种 昆虫 抗 性 研究 
中 , wn K mx. 45] a Bemisia tabaci, $9 V H 
Nilaparvata lugens 和 温室 白粉 乔 Trialeurodes 
vaporariorum 等 ( 汪 杰 ，2009; Wang et al., 2010; 
Xue et al., 2010; Karatolos et al., 2011) 。 然 而 , 到 
H Bii y IE , eoe ELS C ROI FARER a t PS E 



























































































































































关 的 基因 ,可 以 在 分 子 水 平 上 极 大 地 改善 对 大 垫 尖 
翅 蝗 抗 药性 的 深入 认识 ,指导 和 改善 蝗虫 的 化 学 防 
治 技术 。 同 时 ,该 数据 库 还 可 以 为 将 来 大 垫 尖 翅 蝗 
的 基因 和 基因 组 研究 提供 有 用 的 信息 资源 。 


1 材料 和 方法 








1.1 昆虫 取样 和 饲养 

供 试 虫 源 : 大 垫 尖 翅 蝗 采集 于 黑龙 江 省 大 庆 市 
红岗 地 区 的 天 然 草原 。 

大 热 尖 却 蝗 在 室内 采用 笼罩 式 饲养 (28 +20, 
RH 6596 € 696 , 光 周 期 14L: 10D) ,每 个 大 热 尖 翅 幅 种 
群 整 个 生长 阶段 放 在 置 有 透明 得 网 的 笼子 里 (长 宽 
高 均 为 1 m) 。 大 热 尖 翅 蝗 每 日 饲 喂 新 鲜 的 麦苗 , 进 
行 继 代 饲 养 5 代用 于 试验 。 
1.2 实验 试剂 和 仪器 

氯仿 .无 水 乙醇 、. 氨 氧化 钠 、 冰 乙酸 、 异 两 醇 (天 
津 市 大 成 化 学 试剂 厂 ) , 浓 盐 酸 ( 上海 申 翔 化 学 试剂 
公司 ) ,乙酸 钠 、 乙 二 胶 四 乙酸 、 焦 碳酸 二 乙 酯 、Tris 
base( 美 国 Sigma 公司 ) ,TRIzol(Life Technologies) 。 

冷冻 离心 机 (Himac CF16RX , 日 本 ) , Nanodrop 
2000(Thermo 基因 有 限 公 司 ) ,安捷伦 2100( Agilent) 
1.3 RNA 提取 与 检验 

选用 上 述 供 试 虫 源 的 5 龄 雌性 若虫 , 整 头 提取 
RNA。 将 供 试 虫 源 分 成 两 个 平行 样品 (样品 1 和 样 
品 2) 同 时 提取 RNA 和 后 续 转 录 测 定 。 总 RNA 的 
提取 按照 试剂 盒 ( Life Technologies) 说 明 进 行 。 分 
别 使 用 Nanodrop2100，Qubi2. 0 和 Agilent 
Bioanalyzer 2100 检测 RNA 样品 的 纯度 .浓度 和 完整 
性 ,以 保证 使 用 合格 的 样品 进行 转录 组 测序 。 
1.4 cDNA 文库 构建 和 测序 

RNA 样品 检验 合格 后 ,进行 文库 构建 ,主要 流 
程 如 下 :利用 带 有 oligo(dT) 的 磁 珠 从 总 RNA 中 富 
集 真 核 生物 mRNA。 在 高 温 (94% ) 条件 下 ,利用 二 
价 阳离子 随机 打 断 mRNA, 以 mRNA 目的 片段 为 模 
板 , 用 六 碱 基 随 机 引物 合成 第 1 条 cDNA 链 ,然后 加 
AZ& iil dNTPs, RNase 了 和 DNA polymerase I 合 
成 第 2 条 cDNA $£, 利用 AMPure XP beads 纯化 
cDNA。 纯 化 的 双 链 cDNA 再 进行 末端 修复 .加 A 尾 
并 连接 测序 接头 ,然后 再 利用 AMPure XP beads 进 
行 片段 大 小 (包括 接头 300 ~400 bp ,去 掉 接 头 后 实 
际 插入 片段 在 150 ~ 250 bp) 选择。 通过 PCR 扩 增 
富 集 得 到 cDNA 文库 。 最 后 将 构建 好 的 文库 DNA 






















































































究 中 ,因此 ,我 们 借助 高 通 量 Tllumina 测序 技术 、 通 
过 组 装 功能 注释 和 分 析 , 特 别 关 注 与 杀 虫 剂 抗 性 相 























上 机 (Ilumina HiSeq2500) 进行 测序 ,测序 读 长 为 
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PE125。cDNA 文库 构建 和 测序 由 北京 百 迈 客 生物 
科技 有 限 公司 协助 完成 。 
1.5 转录 组 组 装 

同 物种 测序 样品 采用 合并 组 装 ,间接 增加 测序 
深度 ,使 转录 结果 更 完整 。 测 序 得 到 的 原始 数据 经 
过 处 理 去 除 序列 接头 .ploy-N 和 低 质量 Reads , 获得 
高 质量 的 Clean Data。 同 时 ,计算 Q20, Q30, GC. 含 
量 和 重复 序列 水 平 ,所 有 下 游 分 析 都 是 在 高 质量 的 
Clean Data 基础 上 进行 的 。 获 得 高 质量 的 测序 数据 
之 后 ,利用 Trinity 软件 进行 组 装 。 首 先 将 测序 
Reads 打 断 为 较 小 的 片段 (K-mer) ,然后 将 这 些小 片 
段 延伸 成 较 长 的 片 度 (contig) ,并 利用 这 些 片段 之 
间 的 重奏 ,得 到 片 度 集合 (component ) ,最 后 利用 De 
Bruijin 图 的 方法 和 测序 Read 信息 ,在 各 个 片段 集合 
中 分 别 识别 转录 本 序列 。 
1.6 基因 功能 注释 

使 用 BLAST 软件 将 Unigene 序列 与 下 列 数据 库 
比 对 ， 获得 Unigene 的 注 释 信 息 。 数据 库 分 别 为 : 
NCBI Non-redundant ( Nr ); 
Clusters of Orthologous Groups ( COG) ; A Manually 


Annotated and Reviewed Protein Sequence Database 














Protein | Sequences 


( Swiss-Prot ) ; Kyoto Encyclopedia of Genes and 
Genomes ( KEGG); Gene Ontology (GO) 。 
1.7 简单 重复 序列 (simple sequence repeat, SSR) 
检测 

利用 MISA 软件 对 筛选 得 到 的 1 kb 以 上 的 
unigene 做 SSR 分 析 。 


2 结果 


2.1 大 垫 尖 翅 蝗 转 录 组 序列 分 析 和 组 装 

KERA cDNA 提取 样本 利用 Humina 测 
序 平台 测序 ,每 个 样本 生成 超过 6.6 Gb 的 高 质量 
数据 。 样 本 GC 含量 维持 在 50.71% ~ 50.8196 之 
间 。 每 个 样本 测 得 数据 Cycle Q20 均 为 100% ， 
Q30 碱 基 百 分 比 不 少 于 90.09% ( 表 1)。 有 图 可 
以 看 出 ,图 片 中 条 纹 颜色 深浅 表示 碱 基 的 比重 , 颜 
色 越 深 说 明 该 位 置 测定 的 碱 基 中 为 对 应 质量 值得 
碱 基 所 占 的 比重 越 大 ,反之 亦 然 。 图 1 上 方 的 蓝 
色 条 多 且 颜 色 深 说 明 样 品 的 整体 测序 质量 好 。 表 
1 和 图 1 数据 显示 测序 结果 是 高 度 准确 的 ,可 以 用 
于 后 续 分 析 。 





表 1 大 热 尖 翅 蝗 两 个 cDNA 样品 测序 数据 评估 统计 表 


Table 1 Summary for raw reads of two cDNA samples of Epacromius coerulipes 





样品 编号 Reads 数 高 质量 Reads 数 CC 含量 (% ) 
Cycle Q20 30 
Sample no. Number of reads Clean data GC content ycle Q 03047) 
1 26 869 615 6 766 002 460 50.71 100. 00 90. 63 
2 26 428 337 6 653 605 161 50.81 100. 00 90. 09 





GC 含量 : Clean data G 和 C 两 种 碱 基 占 总 碱 基 的 百分比 G and C percentage accounting for the total bases in clean data; Cycle Q20 : 平均 质量 值 大 
于 或 等 于 20 的 Cycle 所 占 的 百分比 Percentage of the cycle whose average quality score is greater than or equal to 20; Q30; Clean data 质量 值 大 于 或 
等 于 30 的 碱 基 所 占 的 百分比 Percentage of the bases whose quality score is greater than or equal to 30. 
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图 1 碱 基质 量 值 分 布 图 
Fig. 1 Quality distribution of bases 
横 坐 标 为 测序 碱 基 在 Reads. 上 的 位 置 , 纵 坐标 为 碱 基质 量 值 ,颜色 
深浅 表示 碱 基 上 比 


the reads, vertical axis indicates the quality score of bases, and the 





























o Horizontal axis indicates the base position on 


color depth indicates the proportion of bases. 





利用 Trinity 软件 进行 序列 组 装 ( 表 2) , 共 得 到 
6 272 631 条 Contig ,其 N50 长 度 为 47 bp; 组 装 得 到 
96 151 条 转录 本 ,总 长 度 为 105. 999 Mb ,平均 长 度 
为 1 102 bp, N50 长 度 为 2 269 bp ,其 中 长 度 在 1 Kb 
以 上 的 有 30 921 条 , 占 32.16% ;2 kb 以 上 的 15 947 
条 , 占 16. 59% 。 对 转录 本 进行 聚 类 和 组 装 分 析 得 
到 63 033 unigenes ,总 长 度 为 48. 663 MP ,平均 长 度 
为 772 bp ,N50 长 度 为 1 589 bp。Unigenes 的 长 度 
分 布 情况 见 图 2, 超 过 1 kb 的 12 893 条 占 20.45%， 
超过 2 kb 的 6 038 条 , 占 9.58%。 这 些 数据 说 明 组 
装 效果 理想 。 
2.2 基因 功能 注释 

我 们 使 用 BLAST 软件 将 获得 的 unigenes 序列 
Hj Nr, Swiss-Prot, KEGG, COG 及 GO 各 数据 库 进 
行 比 对 ,获得 unigene 的 注释 信息 。 本 人 研究 通过 选择 
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表 2 大 垫 撩 翅 蝗 转录 组 组 装 结果 


Table 2 Summary of Illumina transcriptome assembly for Epacromius coerulipes 


长 度 范围 Length range( bp) 








ZH BE Contig 


转录 本 Transcript 


Unigene 








200 -300 6 232 095(99.35% ) 
300 — 500 15 971(0.2596 ) 
500 - 1 000 10 968 (0. 1796 ) 
1 000 -2 000 7 402(0. 1296 ) 
»2 000 6 195(0. 1096 ) 
总 数 Total number 6 272 631 
总 长 度 Total length 306 171 970 
N50 长 度 N50 length 47 
平均 长 度 Mean length 48.81 
100000 
10000 
s 
rg & 1000 
E 
fs 
EI 
PE 
S'B 100 
Z 
10 
0 NJ NJ NJ SN NJ 
en EL D MM 
Y SN NN 


30 249 (31.4695 ) 
18 617 (19.36% ) 
16 364(17.0296 ) 
14 974(15. 5796 ) 
15 947 (16. 5996 ) 


26 218(41.5996 ) 
14 150(22. 4596 ) 
9 7T72(15.5096 ) 
6 855(10. 8896 ) 
6 038 (9.58% ) 
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图 2 ”大 垫 尖 翅 蝗 转录 组 组 装 后 得 到 unigenes 长 度 分 布 


Fig. 2 Length distribution of all assembled unigenes of Epacromius coerulipes 


BLAST 参数 E-value 不 大 于 10 ,最 终 25 132 条 
unigenes 获得 成 功 注释 , 占 39.87% ( 表 3)。Nr 数据 
库 注 释 24 841 条 unigenes, 占 39. 4196 ; Swiss-Prot 
数据 库 注 释 16 490 条 unigenes , 占 26.16% ; COG 数 
据 库 注 释 8 013 条 unigenes , 占 12.71% ; GO 数据 库 
注释 11 558 条 unigenes , 占 18. 34% ; KEGG 数据 库 
注释 7 218 条 unigenes 占 11. 4696 。 然 而 ,还 有 37 
901 条 unigenes ( 60. 13% ) 未 能 被 注释 , Hou 等 
(2011) 表 明 这 些 unigenes 可 借助 测序 技术 获得 短 
序列 ,进行 相关 分 析 。 

GO 数据 库 共 有 3 个 主要 类 别 , 分 别 是 分 子 功 
能 ( molecular function )、 细 胞 组 分 ( cellular 
component ) 和 生物 学 过 程 (biological process) 。 分 子 
功能 (molecular function) unigenes 有 14 429 条 ,其 中 
具有 催化 活性 (catalytic activity ) 和 结合 活性 
(binding) 的 unigenes 数量 最 多 , 分别 是 6 061 和 


5 726 条 , 其 余 均 在 1 000 条 以 下 。 细 胞 组 分 
unigenes 16 937 条 ,其 中 细胞 组 分 中 细胞 (cell) 和 细 
胞 部 分 (cell part) unigenes 数量 最 多 ,分 别 是 3 446 
和 3 468 条 ,其 余 的 大 部 分 在 300 条 以 下 ;生物 学 过 程 
unigenes 27 502 条 ,其 中 代谢 过 程 (metabolic process ) , 
细胞 过 程 (cellular process ) 和 生物 调节 ( biological 
regulation) unigenes 数量 最 多 ,分 别 是 6 870, 5 823 和 
2 367 条 ,其 余 的 均 在 2 000 条 以 下 (图 3)。 

此 外 ,所 有 unigenes 经 过 COG 数据 库 功能 预测 
和 分 类 ,其 中 63 033 条 基因 中 共有 8 013 条 被 分 为 
25 类 (图 4)。 其 中 只 有 一 般 功 能 (general function 
prediction only) 的 unigenes 数量 最 多 ,为 2 128 条 
(20.4396 ) ,是 最 大 的 类 群 ; 其 次 分 别 是 参与 复制 、 
重组 和 修复 (replication ，recombination and repair) 的 
1 107 条 (10.63%) ,参与 翻译 、 核 糖 体 结构 和 生物 


合成 (translation ，ribosomal structure and biogenesis ) 
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的 768 条 (7. 38% ) , 参与 碳水 化 合 物 运输 和 代谢 
(carbohydrate transport and metabolism ) 的 724 条 
(6.95% ) ,参与 翻译 后 修饰 、 蛋 白质 转换 、 分 子 伴侣 
( posttranslational modification, protein 
chaperones) 的 701 2& (6. 7396 ) ,参与 氨基 酸 运 输 和 
代谢 (amino acid transport and metabolism ) 的 682 条 
(6. 5596) , 与 转录 ( transcription ) 相关 的 599 条 
(5.7596) ,参与 信号 传导 机 制 (signal transduction 
mechanisms) 的 489 条 (4.70% ) ,参与 能 源 生 产 和 转 
换 ( energy production and conversion) 的 470 条 
(4.5196) ,参与 无 机 离子 运输 和 代谢 (inorganic ion 
transport and metabolism) 的 425 条 (4.08% ) ,参与 
脂 质 运输 和 代谢 (lipid transport and metabolism ) 的 
422 条 (4.05% ) 。 参 与 次 生 代 谢 物 生物 合成 .运输 
和 代谢 (secondary metabolites biosynthesis, transport 
and catabolism ) 的 也 是 重要 的 类 群 ,共计 275 条 占 
2.64% ,因为 在 昆虫 体内 ,次 生 代谢 物 对 杀 虫 剂 的 影 
响 是 非常 重要 的 。 未 知 功能 (unknown function) 的 
271 条 ,参与 细胞 壁 / 膜 / 包 膜 的 生物 发 生 ( cell wall/ 
membrane/envelope biogenesis) 的 254 条 ,参与 细胞 
周期 控制 .细胞 分 裂 和 染色 体 分 区 (cell cycle 


control, cell division, chromosome partitioning) 的 208 


turnover, 
































条 ,其 他 的 unigenes 数量 均 少 于 200 条 ,其 中 与 核 结 
Pj ( nuclear structure). 和 真 核 生 物 胞 外 结构 
(extracellular structure) 有 关 的 unigenes 更 少 , 所 占 比 
例 分 别 为 0.038% 和 0.019% 。 

使 用 KEGG 注释 系统 进行 unigene 代谢 途径 分 
析 ,7 218 条 unigenes 归属 于 218 条 通路 ,首先 含有 
200 条 unienes 以 上 的 通路 有 : RNA 运输 (RNA 
transport) ，382 条 ; mRNA 监测 途径 (mRNA 
surveillance pathway ) , 272 条 ; 内 质 网 蛋白 质 加 工 
(protein processing in endoplasmic reticulum ) , 239 
条 ;核糖 体 (ribosome) ,230 条 ; 泛 素 介 导 的 蛋白 水 解 
(ubiquitin mediated proteolysis) , 203 条 。 含 有 150 ~ 
200 条 unigenes 的 通路 有 :剪接 体 (spliceosome ) ,189 
条 ;氧化 磷酸 化 (oxidative phosphorylation) , 186 条 ; 
IE S fV 3 ( purine metabolism) , 186 条 ; X% fg 4% 
(lysosome) ,162 条 。 其 他 通路 的 unigenes 数量 均 在 
150 条 以 下 。 其 中 189 条 unigenes 涉及 以 下 代谢 途 
径 : 细 胞 色素 P450 外 源 物质 代谢 (metabolism of 
xenobiotics by cytochrome P450 ) ,67 条 ; 细胞 色素 
P450 药物 代谢 (drug metabolism-cytochrome P450) , 
65 条 ; 其 他 酶 的 药物 代谢 途径 ( drug metabolism- 
other enzymes) , 57 Z&( € 4) 。 








RI ”大 垫 尖 翅 蝗 转录 组 功能 注释 


Table 3 Functional annotation of Epacromius coerulipes transcriptome 




















注释 数据 库 被 注释 的 者 


Annotated database 





因数 量 ( 百分比 ) 








Number of annotated unigenes ( percentage of annotated unigenes ) 


300 bp x KE «1 000 bp 
300 bp x Length « 1 000 bp 


IHE ZI 000 bp 
Length z1 000 bp 





COG 8 013(12.71) 
GO 11 558(18.34) 


KEGG 7 218(11.46) 
Swiss-Prot 16 490(26.16) 
nr 24 841(39.41) 
Al 25 132(39.87) 


表 4 Xvid KEEG 通路 分 析 


Table 4 Summary of KEEG pathways of Epacromius coerulipes 


代谢 通路 Pathway 























RNA 运转 RNA transport 

mRNA 监控 途径 mRNA surveillance pathway 
内 质 网 蛋白 质 加 
核糖 体 Ribosome 
泛 素 介 导 的 蛋白 水 解 Ubiquitin mediated proteolysis 
剪接 体 Spliceosome 

氧化 磷酸 化 Oxidative phosphorylation 

味 叭 代谢 Purine metabolism 

HE Lysosome 

其 他 通路 Other pathways 











Protein processing in endoplasmic reticulum 









































药物 细胞 色素 P450 代谢 Drug metabolism - cytochrome P450 
借助 其 他 酶 的 药物 代谢 Drug metabolism - other enzymes 
通路 总 数 Total 





外 源 物质 细胞 色素 p450 的 代谢 Metabolism of xenobiotics by cytochrome P450 


2 603 3 955 
3 863 5 064 
2 260 3 694 
5 676 7 889 
9 079 9 881 
9 185 9 895 
通路 ID Pathway ID 车 因 数量 Number of genes 
ko03013 382 
ko03015 272 
ko04141 239 
ko03010 230 
ko04120 203 
ko03040 189 
ko00190 186 
ko00230 186 
ko04142 162 
- «150 
ko00980 67 
ko00982 65 
ko00983 57 
- 7 218 
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图 3 G0 分 类 
Fig. 3 Gene Ontology ( GO) categorization 
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Ha: RNA processing and modification 
B: Chromatin structure and dynamics 
C: Energy production and conversion 
D: Cell cycle control, cell division, chromosome partitioning 
E: Amino acid transport and metabolism 
F: Nucleotide transport and metabolism 
G: Carbohydrate transport and metabolism 
H: Coenzyme transport and metabolism 
I: Lipid transport and metabolism 
J: Translation, ribosomal structure and biogenesis 
K: Transcription 
L: Replication, recombination and repair 
M: Cell wall/membrane/envelope biogenesis 
N: Cell motility 
O: Posttranslational modification, protein turnover, chaperones 
P: Inorganic ion transport and metabolism 
Q: Secondary metabolites biosynthesis, transport and catabolism 
A R: General function prediction only 
iil S: Function unknown 
Bn Signal transduction mechanisms 
E U: Intracellular trafficking, secretion, and vesicular transport 
E V: Defense mechanisms 
E W: Extracellular structures 
m Y: Nuclear structure 
D z: Cytoskeleton 


ABCDEFCGHIJKLMNOPQRSTUVWYZ 


功能 分 类 


Function class 


4 ”COG 分 类 
Fig. 4 Clusters of Orthologous Groups (COG) classification 


2.3 杀 虫 剂 抗 性 相关 基因 的 注释 

同时 ,在 大 垫 尖 翅 蝗 转录 组 中 有 许多 编码 杀 虫 
剂 解 毒 酶 和 靶 和 蛋白 的 基因 序列 被 标注 。 在 目前 的 研 
究 中 ,有 316 条 编码 解毒 酶 的 基因 被 注释 ,其 中 43 
条 编码 谷 胱 甘 肽 转移 酶 (CSTs) .90 条 编码 羧 酸 酯 
酶 (CarEs) 和 183 条 编码 细胞 色素 P450s。 有 39 条 
unigenes 编码 杀 虫 剂 的 目标 蛋白 ,其 中 8 条 编码 y- 
基 丁 酸 受 体 (GABA) ,15 条 编码 烟 碱 型 乙酰 胆 碱 受 体 
(nAChRs) ,3 条 编码 鱼 尼 丁 受 体 (zyanodine receptor) ,3 
条 编码 乙酰 胆 碱 酯 酶 (acetylcholinesterase，AChE ) 




















和 10 条 编码 电压 门 控 钠 离子 通道 (VGSC)。 此 外 ， 
在 G0 数据 库 中 确定 了 27 个 GSTs 基因 ，66 个 
CarEs 基因 和 120 个 P450s 解毒 酶 基因 ,4 个 
GABA 11 个 nAChRs,1 个 鱼 尼 丁 受 体 、3 个 AChE 
和 10 VGSC 3E: AED EHE RE CX 5) 
2.4 SSR discovery 

利用 MISA 软件 对 筛选 得 到 的 1 Kb 以 上 的 
unigene 做 SSR 分 析 。 本 研究 中 有 12 893 条 
unigenes 用 来 生成 潜在 的 微 卫 星 。 包 含 SSR 的 序列 
数目 为 4 248 条 ,被 识别 的 SSR 总 数 为 5 696。 其 中 
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表 5 大 垫 尖 翅 蝗 转录 组 中 与 杀 虫 剂 抗 药性 相关 的 基因 


Table 5 Unique transcripts associated with insecticide resistance in Epacromius coerulipes transcriptome 


酶 或 靶 标 


Enzymes or targets 


被 注释 的 基因 总 数 


Number of annotated unigenes 


GO 注释 数量 


GO annotation number 





3 with glutathione transferase activity ( GO :0004364 ) 





谷 胶 甘 肽 转移 酶 GSTs 43 23 with transferase activity ( GO:0016740) 
1 with catalytic activity ( GO :0003824 ) 
56 with carboxylic ester hydrolase activity ( GO :0052689) 
发 酸 酯 酶 CarEs 90 ^ 
PRREERS CarEs 10 with hydrolase activity ( GO 0016787) 
I 79 with oxidoreductase activity ( GO :0016491 ) 
J P450: 183 1 
细胞 色素 I 41 wth monooxygenase activity ( GO :0004497 ) 
= 从 
Y- 氨 基本 酸 受 体 8 4 with G-protein coupled CABA receptor activity ( GO :0004965 ) 
GABA receptor 
烟 碱 型 乙酰 胆 碱 受 体 15 11 with acetylcholine-activated cation-selective channel activity ( GO :0004889 ) 
Nicotinic acetylcholine receptor 2 with ion channel activity ( GO 0005216) 
taje T ZIR 3 1 with ryanodine-sensitive calcium-release channel activity ( GO :0005219) 
Ryanodine receptor 1 involved in zinc ion binding ( GO 0008270) 
H aL rs RS 
C BUB 3 3 with acetylcholinesterase activity ( GO :0003990 ) 
Acetylcholinesterase 
电压 门 控 钠 离子 通道 10 9 with voltage-gated sodium channel activity ( CO :0005248 ) 


Voltage-gated sodium channel 


检测 到 单 碱 基 重 复 SSR 2 008 条 , 占 35. 2596 ; 双 碱 
基 重 复 SSR 2 267 条 , 占 39. 80% ; 三 碱 基 重 复 SSR 
1 330 条 , 占 23. 3596 ; 四 碱 基 重 复 SSR 82 条 , 占 
1.4496 ;五 碱 基 和 六 碱 基 重 复 SSR 分 别 是 6 条 
(0.11% ) 和 3 条 (0.05% )( 表 6) 。 双 碱 基 重 复 SSR 





1 with voltage-gated ion channel activity ( GO :0005244 ) 








最 丰富 的 是 TG 重复 类 型 ,其 次 是 GT, AC,CA; 三 碱 
基 重 复 SSR 最 丰富 类 型 是 CAG, 其 次 是 GCC,GCA 
和 CGC; 四 碱 基 重 复 SSR 最 丰富 类 型 是 AAAT。 针 
对 这 些 SSR 还 需要 进一步 的 试验 验证 。 




















I 


表 6 大 垫 尖 翅 蝗 转 录 组 中 unigenes 的 SSR 分 析 结 果 统 计 表 


Table6 Summary of simple sequence repeats (SSRs) of unigenes in Epacromius coerulipes transcriptome 

































































搜索 项 目 Searching item 数量 Number 百分比 Percentage 

评估 的 序列 数目 Total number of sequences examined 12 893 

评估 序列 总 碱 基 量 Total number of nucleotides of the examined sequences 30 231 290 

识别 的 SSRs 总 数 Total number of identified SSRs 5 696 

包含 SSR 的 序列 数目 Number of SSR containing sequences 4 248 

包含 1 个 以 上 SSR 的 序列 数目 Number of sequences containing more than 1 SSR 1 068 

以 复合 物 存在 的 SSR 数目 Number of SSRs present in compound form 339 

单 碱 基 重 复 Mononucleotide 2 008 35,25 

二 碱 基 重 复 Dinucleotide 2 267 39. 80 

三 碱 基 重 复 Trinucleotide 1 330 23.35 

四 碱 基 重 复 Tetranucleotide 82 1.44 

五 碱 基 重 复 Pentanucleotide 6 0.11 

六 碱 基 重 复 Hexanucleotide 3 0.05 

355 条 。 前 人 对 其 他 昆虫 转录 组 测序 分 析 , 也 发 现 

3 讨论 了 不 同 种 类 和 数量 的 解毒 酶 基因 。 例 如 烟 粉 下 中 


本 研究 在 无 参考 基因 组 转录 组 测序 情况 下 , 共 
获得 13.4 Gb 原始 数据 并 组 装 成 63 033 条 
unigenes。 共 计 有 25 132 (39. 87% ) 条 unigenes 被 
nr, Swiss-Prot , GO, COG 和 KEGG 数据 库 成 功 注 
释 。 确 定 了 抗 药 性 相关 的 解毒 酶 丢 位 点 基因 共计 























37 条 P450s .49 条 羧 酸 酯 酶 15 条 GST, 柑橘 粉 乔 
Dialeurodes citri 中 53 条 P450s .6 Z& Eg We FB REI 18 
条 GST, 温 带 自 虫 Cimex lectularius 中 102 条 P450s 
基因 ( 王 震 宇 , 2011; Mamidala et al., 2012; Chen et 
al., 2014)。 此 外 ,对 昆虫 全 基因 组 测序 分 析 发 现 ， 
EKE Acyrthosiphon pisum 中 83 条 ( Ramsey 
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et al., 2010) , 黑 腹 果 晶 Drosoplila melanogaster 中 85 
条 (Adams et al., 2000), [x] E MV. Tz EX Anopheles 
gambiae 中 106 Z& (Holt et al., 2002) ,埃及 伊 蚁 
Aedes aegypti 中 164 2& (Strode et al., 2008) P450s; 
Te AMR RARA Re o 2H rh. P450s 基因 数量 
(183) 以 及 羧 酸 酯 酶 (90) 和 GST(43) 共计 316 条 。 
昆虫 体内 解毒 酶 细胞 色素 PASOS , P B B BG 
( CarEs) LA t H AK-S 转移 酶 (CSTs) 参与 外 源 物 
质 、 植物 次 生物 质 和 杀 虫 剂 的 代谢 (Strode et al., 
2008; Ramsey et al., 2010) 。 昆 虫 对 杀 虫 剂 的 抗 性 
也 体现 在 解毒 酶 表达 量 的 提高 和 靶 标 位 点 的 突变 
上 。 许 多 研究 表明 ,昆虫 对 杀 虫 剂 的 抗 性 表现 为 体 
内 各 种 解毒 酶 的 超 表 达 。 例 如 白 背 飞 乱 Sogatella 
furcifera Sg EUIS DUPERIEE P450 单 加 氧 酶 活性 大 大 增 
加 (Tang et al., 2010) ,温室 白粉 乱 蚊 蝇 醚 抗 性 品系 
(TV8pyrsel) P450 4t B] ( CYP4G61 ) 超 表达 81.7 f 
( Karatolos et al., 2012) ,大 豆 蚜 Aphis glycines 高 效 
氧 氟 握 菊 酯 抗 性 品系 , 羧 酸 酯 酶 表达 水 平 提高 5. 88 
倍 ,基因 拷贝 数 增加 2. 93 倍 ( 张 桦 ,2013 ) 。 棉 是 
Aphis gossypii 省 氰 菊 酯 抗 性 品系 中 , 凑 酸 酯 酶 表达 
水 平 提高 6.61 倍 (Cao et al., 2008 ) 。 
杀 虫 剂 靶 标 位 点 包括 GABA 受 体 、 烟 碱 型 乙酰 
胆 碱 酯 酶 受 体 亚 基 、 鱼 尼 丁 受 体 乙酰 胆 碱 酯 酶 和 电 
压 门 控 钠 离子 通道 (VCGSC) 。 这 些 目标 蛋白 已 被 报 
道 与 杀 虫 剂 抗 药性 有 关 , 也 发 现 这 些 目标 蛋白 大 量 
的 突变 导致 昆虫 不 同 程度 的 不 敏感 性 ( 陶 士 强 等 ， 
2012) 。 烟 粉 乔 对 硫 丹 的 抗 药性 与 GABA 受 体 亚 基 
基因 突变 有 关 ( Houndete et al., 2010) ; JK K T 
Laodelphax striatellus X AE MA Ht tE n] 8-3 GABA 受 
体 基 因 AN 突变 有 关 ( 陈 宇 ，2012 ) ; VGSC 的 
M918V, L9251 和 TO29 V 位 点 突变 与 对 拟 除 虫 菊 酯 
的 抗 性 有 关 ( Chung et al., 2011) , 褐飞虱 对 吡虫啉 
的 抗 性 与 2 个 烟 碱 型 乙酰 胆 碱 受 体 亚 基 Nlal 和 
Nla3 保守 位 置 (Y151S ) 的 单一 位 点 突变 有 关 ( Liu 
et al.，2005 ) 。 小 菜 蛾 Plutella xylostella XFA EA HP 
酰胺 的 抗 性 与 鱼 尼 丁 受 体 中 的 4 个 位 点 突变 有 关 
(IT, 2014) 。 本 研究 注释 的 靶 和 蛋白 基因 将 是 下 一 
步 筛选 突变 位 点 的 基础 。 所 以 大 垫 尖 翅 蝗 转录 组 研 
究 可 以 探讨 其 体内 解毒 酶 和 驾 位 点 突变 在 杀 虫 剂 搞 
性 中 的 作用 ,为 进一步 研究 其 详细 机 制 提 供 有 价值 
的 信息 。 

SSRs 广泛 用 于 进化 论 和 遗传 学 研究 (Liu et al., 
2012) 。 然 而 ,在 节肢 动物 基因 组 中 SSRs 不 丰 
( Fagerberg et al., 2001) , fi ies Euphydryas editha 
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中 只 有 92 条 SSRs 被 检测 到 (Mikheyev et al., 
2010) , THEE RUD. citri 中 只 检测 到 149 条 (Chen ， 
2012) ,在 烟 粉 融 转录 组 中 检测 到 SSR 数量 较 大 ， 
9 075 条 ( Xie et al., 2012)。 在 大 热 类 计 蝗 转录 组 中 ， 
被 识别 的 SSR 总 数 为 5 696 条 ,相对 较 多 。 总 之 ,在 此 
转录 组 基础 上 ,可 以 对 大 垫 尖 翅 蝗 的 相关 基因 进行 分 
Vr ,为 生物 学 研究 项 目 提供 分 子 水 平 依据 。 
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